Traitement automatique des entités nommées en arabe : détection et traduction
نویسندگان
چکیده
The recognition of Arabic Named Entities (NE) is a potentially useful preprocessing step for many Natural Language Processing Applications, such as Statistical Machine Translation (SMT). Due to peculiarities of the written Arabic language, this task is however rather challenging. In this paper, we present a detailed study of Arabic NEs in the context of a SMT system. We present our statistical NE recognition system (NERAr), and its various evolutions. NERAr was then used as a processing step, thus enabling us to incorporate external linguistic knowledge into the SMT system. Several strategies for performing this integration are explored. Automatic evaluations, corroborated by manual inspections, indicate a small improvement of the translation quality of NEs, and a reduction of the errors caused by out-of-vocabulary words. MOTS-CLÉS : entités nommées, traduction automatique, traitement automatique de l’arabe.
منابع مشابه
Anaphora Resolution for Machine Translation (Résolution d'anaphores et traitement des pronoms en traduction automatique à base de règles) [in French]
RÉSUMÉ La traduction des pronoms est l’un des problèmes actuels majeurs en traduction automatique. Étant donné que les pronoms ne transmettent pas assez de contenu sémantique en euxmêmes, leur traitement automatique implique la résolution des anaphores. La recherche en résolution des anaphores s’intéresse à établir le lien entre les entités sans contenu lexical (potentiellement des syntagmes no...
متن کاملNamed Entity Recognition and Correction in OCRized Corpora (Détection et correction automatique d'entités nommées dans des corpus OCRisés) [in French]
Résumé. La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour atteindre une qualité éditoriale reste aujourd’hui une tâche coûteuse, car elle implique toujours une intervention humaine. La détection et la correction automatiques d’erreurs à l’aide de modèles statistiques ne permettent de traiter de façon utile que les erreurs relevant de la langue géné...
متن کاملSystème de traduction automatique statistique Anglais-Arabe
La traduction automatique (TA) est le processus qui consiste à traduire un texte rédigé dans une langue source vers un texte dans une langue cible. Dans cet article, nous présentons notre système de traduction automatique statistique anglais-arabe. Dans un premier temps, nous présentons le processus général pour mettre en place un système de traduction automatique statistique, ensuite nous décr...
متن کاملBuilding a Bilingual Vietnamese-French Named Entity Annotated Corpus through Cross-Linguistic Projection
Résumé. La création de ressources linguistiques de bonne qualité annotées en entités nommées est très coûteuse en temps et en main d’œuvre. La plupart des corpus standards sont disponibles pour l’anglais mais pas pour les langues peu dotées, comme le vietnamien. Pour les langues asiatiques, cette tâche reste très difficile. Le présent article concerne la création automatique de corpus annotés e...
متن کاملImproving Minor Opinion Polarity Classification with Named Entity Analysis (L'apport des Entités Nommées pour la classification des opinions minoritaires) [in French]
RÉSUMÉ La majeure partie des travaux en fouille d’opinion et en analyse de sentiment concerne le classement des opinions majoritaires. Les méthodes d’apprentissage supervisé à base de ngrammes sont souvent employées. Elles ont l’inconvénient d’avoir un biais en faveur des opinions majoritaires si on les utilise de manière classique. En fait la présence d’un terme particulier, fortement associé ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
عنوان ژورنال:
- TAL
دوره 54 شماره
صفحات -
تاریخ انتشار 2013